# Martin.Zhu的白葡萄酒质量探索

单变量绘图选择

该报告探索了包含4898条白葡萄酒质量相关参数的数据集。

单变量分析

## 'data.frame':    4898 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 47 30 30 45 14 28 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 186 97 136 170 132 129 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.996 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
##  $ quality             : int  6 6 6 6 6 6 6 6 6 6 ...
##                      vars    n    mean      sd  median trimmed     mad
## X                       1 4898 2449.50 1414.08 2449.50 2449.50 1815.44
## fixed.acidity           2 4898    6.85    0.84    6.80    6.82    0.74
## volatile.acidity        3 4898    0.28    0.10    0.26    0.27    0.09
## citric.acid             4 4898    0.33    0.12    0.32    0.33    0.09
## residual.sugar          5 4898    6.39    5.07    5.20    5.80    5.34
## chlorides               6 4898    0.05    0.02    0.04    0.04    0.01
## free.sulfur.dioxide     7 4898   35.31   17.01   34.00   34.36   16.31
## total.sulfur.dioxide    8 4898  138.36   42.50  134.00  136.96   43.00
## density                 9 4898    0.99    0.00    0.99    0.99    0.00
## pH                     10 4898    3.19    0.15    3.18    3.18    0.15
## sulphates              11 4898    0.49    0.11    0.47    0.48    0.10
## alcohol                12 4898   10.51    1.23   10.40   10.43    1.48
## quality                13 4898    5.88    0.89    6.00    5.85    1.48
##                       min     max   range skew kurtosis    se
## X                    1.00 4898.00 4897.00 0.00    -1.20 20.21
## fixed.acidity        3.80   14.20   10.40 0.65     2.17  0.01
## volatile.acidity     0.08    1.10    1.02 1.58     5.08  0.00
## citric.acid          0.00    1.66    1.66 1.28     6.16  0.00
## residual.sugar       0.60   65.80   65.20 1.08     3.46  0.07
## chlorides            0.01    0.35    0.34 5.02    37.51  0.00
## free.sulfur.dioxide  2.00  289.00  287.00 1.41    11.45  0.24
## total.sulfur.dioxide 9.00  440.00  431.00 0.39     0.57  0.61
## density              0.99    1.04    0.05 0.98     9.78  0.00
## pH                   2.72    3.82    1.10 0.46     0.53  0.00
## sulphates            0.22    1.08    0.86 0.98     1.59  0.00
## alcohol              8.00   14.20    6.20 0.49    -0.70  0.02
## quality              3.00    9.00    6.00 0.16     0.21  0.01

数据集由13个变量组成,具有4898条观测值,每个变量的解释如下:

1、X:序号

2、fixed acidity:固定酸度

3、volatile acidity:挥发性酸度

4、citric acid:柠檬酸

5、residual sugar:残糖

6、chlorides:氯化物

7、free sulfur dioxide:游离二氧化硫

8、total sulfur dioxide:总二氧化硫

9、density:密度

10、pH:pH 值

11、sulphates:硫酸盐

12、alcohol:酒精度

13、quality:质量 - 0 到 10 之间的得分

变量X为序号,对数据分析没有价值,删除此列,之后对数据集再进行观测。

删除‘X’变量后,再次评估数据集,发现有3961条有效数据,937条重复数据,占了原数据的19.13%。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.800   6.300   6.800   6.839   7.300  14.200

固定酸度最小值为3.8,最大值为14.2,中位数为6.8,平均值为6.839,平均值与中位数接近。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0800  0.2100  0.2600  0.2805  0.3300  1.1000

挥发性酸度为右偏态,最小值为0.08,最大值为1.1,中位数为0.26,平均值为0.2805。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.2700  0.3200  0.3343  0.3900  1.6600

白葡萄酒柠檬酸为右偏态,但在0-0.75范围内,呈现正态分布,其中最小值为0,最大值为1.66,中位数为0.32,平均值为0.3343。怀疑最大值为异常值,查看所有大于1的值。

##      fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 629            7.4             0.20        1.66            2.1     0.022
## 2586           7.6             0.25        1.23            4.6     0.035
##      free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates
## 629                   34                  113 0.99165 3.26      0.55
## 2586                  51                  294 0.99018 3.03      0.43
##      alcohol quality
## 629     12.2       6
## 2586    13.1       6

柠檬酸大于1的值有2行,移除异常值。

异常值移除后基本呈正态分布。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.600   4.700   5.916   8.900  65.800

残糖最大值与数据总体分布较远,怀疑为异常值,目测数据

##      fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1395           7.9            0.330        0.28           31.6     0.053
## 2295           7.8            0.965        0.60           65.8     0.074
##      free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates
## 1395                  35                  176 1.01030 3.15      0.38
## 2295                   8                  160 1.03898 3.39      0.69
##      alcohol quality
## 1395     8.8       6
## 2295    11.7       6

大于30的值有2个,移除异常值。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.600   1.600   4.700   5.894   8.800  26.050

移除异常值后的残糖数据为长尾数据,需要将其转换。

白葡萄酒残糖数据最小值为0.6,最大值为26.05,中位数为4.7,平均值为5.894。将其转换后,呈双峰态,第一个峰值在1.7,第二个峰值在9左右。

氯化物分布为长尾数据,使用对数函数将其转换。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00900 0.03600 0.04200 0.04591 0.05000 0.34600

白葡萄酒氯化物数据最小值为0.009,最大值为0.346,中位数为0.042,平均值为0.0459。对氯化物数据进行转换后,呈正态分布。

##      fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 3828           6.1             0.26        0.25            2.9     0.047
##      free.sulfur.dioxide total.sulfur.dioxide density   pH sulphates
## 3828                 289                  440 0.99314 3.44      0.64
##      alcohol quality
## 3828    10.5       3

异常值有1个,为最大值,移除异常数据。

移除异常值的游离二氧化硫为右偏态,对其进行转换。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   23.00   33.00   34.83   45.00  146.50

游离二氧化硫最小值为2,最大值为146.5,中位数为33,平均值为34.83。进行对数转换后,峰值在30左右。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     9.0   106.0   133.0   137.1   166.0   366.5

总二氧化硫最小值为9,最大值为366.5,中位数为133,平均值为137.1。在0-300的范围内呈正态分布。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9871  0.9916  0.9935  0.9938  0.9957  1.0030

密度数据平均值为0.9938,中位数为0.9935,最大值1.003,最小值0.9871,整体呈正态分布。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.720   3.090   3.180   3.195   3.290   3.820

pH值呈正态分布,峰值在3.1-3.2左右。

硫酸盐呈右偏态,将其转换。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2200  0.4100  0.4800  0.4903  0.5500  1.0800

转换后的硫酸盐基本呈正态分布,但在峰值部分离散较大。最小值0.22,最大值1.08,中位数0.48,平均值0.4903.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00    9.50   10.40   10.59   11.40   14.20

酒精度数据没有呈现出特别明显的正态分布,最小值为8,最大值为14.2,中位数为10.4,平均值为10.59。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.855   6.000   9.000

白葡萄酒质量等级基本呈正态分布,质量小于6的葡萄酒数量逐渐减少,品质大于6的葡萄酒数量逐渐减少的同时,其稀有程度大于质量小于6的白葡萄酒。最小值3,最大值9,中位数6,平均值5.855.

你的数据集结构是什么?

数据集中有3956条数据,具有12个变量(固定酸度、挥发性酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH、硫酸盐、酒精度、质量等级)。其中有序变量为白葡萄酒质量,质量由差到好的顺序为0、1、2、3、4、5、6、7、8、9、10。

其他发现:

  1. 大部分白葡萄酒质量等级都为6。

  2. 残糖是明显的长尾数据,对数转换后,呈双峰态。

  3. 大多数白葡萄酒酒精度在8-14之间。

你的数据集内感兴趣的主要特性有哪些?

  1. 酒精含量更高的白葡萄酒是否获得的评价更高。

  2. 残糖含量更高的白葡萄酒是否获得的评价更高。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

pH可能对白葡萄酒评级产生影响。

根据数据集内已有变量,你是否创建了任何新变量?

没有创建新的变量。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

检查数据集异常值时,发现数据有937条重复数据,占总数据的19.13%,对之后的EDA影响较大,需要移除。柠檬酸、残糖、氯化物、游离二氧化硫均有异常大的值,移除异常值后,柠檬酸呈正态分布,氯化物、游离二氧化硫、硫酸盐对数转换后,呈正态分布,残糖对数转换后呈双峰态。

双变量绘图选择

## 'data.frame':    3956 obs. of  12 variables:
##  $ fixed.acidity       : num  7 6.3 8.1 7.2 6.2 8.1 8.1 8.6 7.9 6.6 ...
##  $ volatile.acidity    : num  0.27 0.3 0.28 0.23 0.32 0.22 0.27 0.23 0.18 0.16 ...
##  $ citric.acid         : num  0.36 0.34 0.4 0.32 0.16 0.43 0.41 0.4 0.37 0.4 ...
##  $ residual.sugar      : num  20.7 1.6 6.9 8.5 7 1.5 1.45 4.2 1.2 1.5 ...
##  $ chlorides           : num  0.045 0.049 0.05 0.058 0.045 0.044 0.033 0.035 0.04 0.044 ...
##  $ free.sulfur.dioxide : num  45 14 30 47 30 28 11 17 16 48 ...
##  $ total.sulfur.dioxide: num  170 132 97 186 136 129 63 109 75 143 ...
##  $ density             : num  1.001 0.994 0.995 0.996 0.995 ...
##  $ pH                  : num  3 3.3 3.26 3.19 3.18 3.22 2.99 3.14 3.18 3.54 ...
##  $ sulphates           : num  0.45 0.49 0.44 0.4 0.47 0.45 0.56 0.53 0.63 0.52 ...
##  $ alcohol             : num  8.8 9.5 10.1 9.9 9.6 11 12 9.7 10.8 12.4 ...
##  $ quality             : Factor w/ 7 levels "3","4","5","6",..: 4 4 4 4 4 4 3 3 3 5 ...

白葡萄酒酒精度与质量的频谱图,并不能很好的反应酒精度对白葡萄酒质量的影响。

从频谱图和堆叠图综合反应出,质量为5和6的白葡萄酒占了很大的部分,由于质量5和6的白葡萄酒占比太高,很难观测其他质量白葡萄酒的情况。

箱线图反应了白葡萄酒质量与酒精度的一些关系,质量为7-9的酒,酒精度中位数依次升高,中位数最低大约在11.5左右,最低大约在12.5左右,酒精度小于11的酒,整体质量较低。

残糖较高的白葡萄酒,质量在5-6居多,质量最好的酒,残糖中位数最低。

中位数与第三个四分位数随着质量的提高,pH呈先降后升的趋势。第一个四分位数随着质量的提高,pH一直呈上升趋势。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

  1. 酒精度与质量有相关性,随着质量的提高,酒精度先降后升,质量最高的白葡萄酒,整体酒精度处于比较高的水平。

  2. 残糖与质量有相关性,但是相关性强度不明显,质量7-9的白葡萄酒,残糖较质量3-6相比,整体偏低,猜测残糖含量低的白葡萄酒获得高质量评价的概率大。

你是否观察到主要特性与其他特性之间的有趣关系?

pH与质量相互关联,质量越高,pH越高。

你发现最强的关系是什么?

pH与质量相呈正相关且相关性较强,酒精度与质量有相关性,但相关性程度不及pH与质量,残糖与质量相关性不明显。

多变量绘图选择

pH与酒精度、质量没有明显关系。酒精度和质量有相关性,酒精度越高,颜色越深,说明白葡萄酒质量随着酒精度升高而提升。

残糖、pH、质量之间相关性不明显。

随着酒精度的升高,白葡萄酒残糖逐渐降低,酒精度与残糖负相关性强。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

在多变量分析中,残糖、酒精度、pH、质量之间均未发现有相互促进的特性。

这些特性之间是否存在有趣或惊人的联系呢?

酒精度与残糖之间存在负相关性,酒精度越高,白葡萄酒残糖含量越小。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

未找到相关性特别强的变量,未创建任何数据集模型。


定稿图与总结

绘图一

描述一

白葡萄酒质量呈正态分布,这说明在一般情况下,质量特别差和特别好的酒均不容易出现。

绘图二

描述二

pH与质量相互关联,pH越高,白葡萄酒质量越好。

绘图三

描述三

酒精度与残糖之间呈负相关,酒精度越高,白葡萄酒残糖含量越小。


反思

选择数据集后,只是简单查看了数据集是否有空值,在单变量分析的过程中才发现该数据集有重复值,回过头再重新对数据集进行了清理,浪费了一些时间。

在处理数据的过程中,感到数据量较小,有的数据过于离散,不太容易观察到相关性。同时该数据集分类变量只有一个“质量”,缺乏对比数据,也许将未选择的红葡萄酒数据合并至该数据集,能找到更多有关联的变量。